#from llama_cpp import Llama
from langchain_community.llms import LlamaCpp  # 与LangChain集成

# 初始化模型（使用Q5_K_M量化，内存约1.8GB）
model_path = r"D:\ideaSpace\MyPython\models\TinyLlama-1.1B-Chat-v1.0-GGUF\tinyllama-1.1b-chat-v1.0.Q5_K_M.gguf"  # 没有任何回复
model_path = r"D:\ideaSpace\MyPython\models\chinese-alpaca-2-7b.Q4_K_M.gguf" # 有一点输出而已，该模型只适合推理
model_path = r"D:\ideaSpace\MyPython\models\Phi-3-mini-4k-instruct.Q4_K_M.gguf"  # 效果比较好

llm = LlamaCpp(
    model_path=model_path,
    temperature=0.5,
    max_tokens=200,
    n_ctx=512
)
print(llm.invoke("如何用Python处理JSON数据？"))
